🤔 Почему моя модель машинного обучения резко теряет точность после выхода в продакшн, хотя на тестах всё было отлично
Потому что модель обучалась на «чистом» датасете, а в продакшне сталкивается с реальными, грязными и непредсказуемыми данными.
🧩Типовые причины падения качества:
1. Искажения входных признаков — Например, в одном из полей вместо десятичного значения приходит строка или ноль. Модель не понимает контекст и делает ошибочный прогноз.
2.Отсутствие валидации на этапе inference — Если данные не проходят базовую проверку перед подачей в модель, она работает на мусоре. А мусор на входе = мусор на выходе (GIGO).
3. Появление новых распределений (data drift) — В продакшн приходят значения, которых в трейне не было. Модель не обучалась на таких случаях и путается.
4. Неверная предобработка в проде — Самая частая причина: трансформации признаков в проде не совпадают с тем, как они делались в трейне. Всё — от разного кодирования категорий до забытых скейлеров.
🛠Как защититься
➡️ Внедрить валидацию входных данных (тип, диапазон, формат). ➡️ Использовать инвариантные признаки, устойчивые к мелким искажениям. ➡️ Настроить мониторинг данных на inference, чтобы ловить отклонения от трейна. ➡️ Автоматизировать регулярное переобучение с учётом новых поступающих данных. ➡️ Обеспечить идентичность пайплайнов: то, что в трейне — то и в проде.
🤔 Почему моя модель машинного обучения резко теряет точность после выхода в продакшн, хотя на тестах всё было отлично
Потому что модель обучалась на «чистом» датасете, а в продакшне сталкивается с реальными, грязными и непредсказуемыми данными.
🧩Типовые причины падения качества:
1. Искажения входных признаков — Например, в одном из полей вместо десятичного значения приходит строка или ноль. Модель не понимает контекст и делает ошибочный прогноз.
2.Отсутствие валидации на этапе inference — Если данные не проходят базовую проверку перед подачей в модель, она работает на мусоре. А мусор на входе = мусор на выходе (GIGO).
3. Появление новых распределений (data drift) — В продакшн приходят значения, которых в трейне не было. Модель не обучалась на таких случаях и путается.
4. Неверная предобработка в проде — Самая частая причина: трансформации признаков в проде не совпадают с тем, как они делались в трейне. Всё — от разного кодирования категорий до забытых скейлеров.
🛠Как защититься
➡️ Внедрить валидацию входных данных (тип, диапазон, формат). ➡️ Использовать инвариантные признаки, устойчивые к мелким искажениям. ➡️ Настроить мониторинг данных на inference, чтобы ловить отклонения от трейна. ➡️ Автоматизировать регулярное переобучение с учётом новых поступающих данных. ➡️ Обеспечить идентичность пайплайнов: то, что в трейне — то и в проде.
Bitcoin is built on a distributed digital record called a blockchain. As the name implies, blockchain is a linked body of data, made up of units called blocks that contain information about each and every transaction, including date and time, total value, buyer and seller, and a unique identifying code for each exchange. Entries are strung together in chronological order, creating a digital chain of blocks. “Once a block is added to the blockchain, it becomes accessible to anyone who wishes to view it, acting as a public ledger of cryptocurrency transactions,” says Stacey Harris, consultant for Pelicoin, a network of cryptocurrency ATMs. Blockchain is decentralized, which means it’s not controlled by any one organization. “It’s like a Google Doc that anyone can work on,” says Buchi Okoro, CEO and co-founder of African cryptocurrency exchange Quidax. “Nobody owns it, but anyone who has a link can contribute to it. And as different people update it, your copy also gets updated.”
In many cases, the content resembled that of the marketplaces found on the dark web, a group of hidden websites that are popular among hackers and accessed using specific anonymising software.“We have recently been witnessing a 100 per cent-plus rise in Telegram usage by cybercriminals,” said Tal Samra, cyber threat analyst at Cyberint.The rise in nefarious activity comes as users flocked to the encrypted chat app earlier this year after changes to the privacy policy of Facebook-owned rival WhatsApp prompted many to seek out alternatives.Библиотека собеса по Data Science | вопросы с собеседований from cn